检索结果

Select

1. 基于跨语种预训练语言模型XLM-R的神经机器翻译方法

王倩, 李茂西, 吴水秀, 王明文

北京大学学报自然科学版 2022, 58 (1): 29-36. DOI: 10.13209/j.0479-8023.2021.109

摘要（659）

HTML

PDF（pc）（569KB）（179）

探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端, 提高机器翻译的质量。提出3种网络模型, 分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示。在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明, 对双语平行语料资源丰富的翻译任务, 引入XLM-R可以很好地对源语言句子进行编码, 从而提高翻译质量; 对双语平行语料资源匮乏的翻译任务, 引入XLM-R不仅可以很好地对源语言句子进行编码, 还可以对源语言端和目标语言端的知识同时进行补充, 提高翻译质量。

相关文章 | 多维度评价 | 评论（0）

Select

2. 基于翻译质量估计的神经网络译文自动后编辑

谭亦鸣, 王明文, 李茂西

北京大学学报（自然科学版） 2018, 54 (2): 255-261. DOI: 10.13209/j.0479-8023.2017.153

摘要（1238）

HTML （2）

PDF（pc）（629KB）（409）

针对译文后编辑中的过度修正问题, 提出利用神经网络自动后编辑方法, 训练专门用于提供少量复合编辑修正和单一编辑类型修正的神经网络后编辑模型。在此基础上, 通过建立一个基于翻译质量估计的译文筛选算法, 将提出的模型与常规的神经网络自动后编辑模型进行联合。在WMT16自动后编辑任务测试集上的实验结果表明, 与基准系统相比, 所提方法显著提高了机器译文的翻译质量, 实验分析也表明该方法能有效地处理过度修正造成的译文质量下降问题。

相关文章 | 多维度评价 | 评论（0）

Select

3. 机器翻译自动评价中领域知识复述抽取研究

张丽林, 李茂西, 肖文艳, 万剑怡, 王明文

北京大学学报自然科学版 2017, 53 (2): 230-238. DOI: 10.13209/j.0479-8023.2017.030

摘要（649）

HTML （19）

PDF（pc）（355KB）（273）

针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题, 提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类, 并利用改进的M-L方法过滤, 得到特定领域训练语料, 然后在训练语料中利用Markov网络模型, 抽取特定领域复述表, 最后将此复述表应用在机器译文自动评价中, 以提高同义词和近义词的匹配精度。在WMT’14 Metrics task和WMT’15 Metrics task数据集上的实验结果表明, 利用领域知识抽取的复述能够增加自动评价方法METEOR和TER与人工评价的相关性。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）